尽管机器学习的其他领域越来越多地自动化,但设计高性能的推荐系统仍然需要高水平的人力努力。此外,最近的工作表明,现代推荐系统算法并不总是比调整良好的基线改进。一个自然的后续问题是:“我们如何为新数据集和性能指标选择正确的算法?”在这项工作中,我们首先要通过比较85个数据集和315个指标的18算法和100组超参数的大规模研究。我们发现,最好的算法和超参数高度依赖于数据集和性能指标,但是,每种算法的性能与数据集的各种元元功能之间也存在很强的相关性。在这些发现的激励下,我们创建了Reczilla,这是一种推荐系统的元学习方法,该方法使用模型来预测新的,看不见的数据集的最佳算法和超参数。通过使用比先前的工作更多的元培训数据,Reczilla可以大大降低面对新推荐系统应用时人类参与水平。我们不仅发布了我们的代码和预处理的Reczilla模型,而且还发布了所有原始的实验结果,因此从业者可以为其所需的性能指标训练Reczilla模型:https://github.com/naszilla/reczilla。
translated by 谷歌翻译
我们研究了通过中等数量的成对比较查询引发决策者偏好的问题,以使它们成为特定问题的高质量推荐。我们受到高赌场域中的应用程序的推动,例如选择分配稀缺资源的政策以满足基本需求(例如,用于移植或住房的肾脏,因为那些经历无家可归者),其中需要由(部分)提出引出的偏好。我们在基于偏好的偏好中模拟不确定性,并调查两个设置:a)脱机偏出设置,其中所有查询都是一次,b)在线诱因设置,其中按时间顺序选择查询。我们提出了这些问题的强大优化制剂,这些问题集成了偏好诱导和推荐阶段,其目的是最大化最坏情况的效用或最小化最坏情况的后悔,并研究其复杂性。对于离线案例,在活动偏好诱导与决策信息发现的两个半阶段的稳健优化问题的形式中,我们提供了我们通过列解决的混合二进制线性程序的形式提供了等效的重构。 -Constraint生成。对于在线设置,主动偏好学习采用多级强大优化问题的形式与决策依赖的信息发现,我们提出了一种保守的解决方案方法。合成数据的数值研究表明,我们的方法在最坏情况级别,后悔和效用方面从文献中倾斜最先进的方法。我们展示了我们的方法论如何用于协助无家可归的服务机构选择分配不同类型的稀缺住房资源的政策,以遇到无家可归者。
translated by 谷歌翻译
Exploring the climate impacts of various anthropogenic emissions scenarios is key to making informed decisions for climate change mitigation and adaptation. State-of-the-art Earth system models can provide detailed insight into these impacts, but have a large associated computational cost on a per-scenario basis. This large computational burden has driven recent interest in developing cheap machine learning models for the task of climate model emulation. In this manuscript, we explore the efficacy of randomly wired neural networks for this task. We describe how they can be constructed and compare them to their standard feedforward counterparts using the ClimateBench dataset. Specifically, we replace the serially connected dense layers in multilayer perceptrons, convolutional neural networks, and convolutional long short-term memory networks with randomly wired dense layers and assess the impact on model performance for models with 1 million and 10 million parameters. We find average performance improvements of 4.2% across model complexities and prediction tasks, with substantial performance improvements of up to 16.4% in some cases. Furthermore, we find no significant difference in prediction speed between networks with standard feedforward dense layers and those with randomly wired layers. These findings indicate that randomly wired neural networks may be suitable direct replacements for traditional dense layers in many standard models.
translated by 谷歌翻译
关于对比学习的最新研究仅通过在医学图像分割的背景下利用很少的标签来实现出色的性能。现有方法主要关注实例歧视和不变映射。但是,他们面临三个常见的陷阱:(1)尾巴:医疗图像数据通常遵循隐式的长尾分配。盲目利用训练中的所有像素会导致数据失衡问题,并导致性能恶化; (2)一致性:尚不清楚分割模型是否由于不同解剖学特征之间的类内变化而学会了有意义但一致的解剖学特征; (3)多样性:整个数据集中的切片内相关性已得到明显降低的关注。这促使我们寻求一种有原则的方法来战略利用数据集本身,以发现不同解剖学观点的类似但不同的样本。在本文中,我们介绍了一种新型的半监督医学图像分割框架,称其为您自己的解剖结构(MONA),并做出了三个贡献。首先,先前的工作认为,每个像素对模型培训都同样重要。我们从经验上观察到,仅此单单就不太可能定义有意义的解剖特征,这主要是由于缺乏监督信号。我们通过使用更强大的数据增强和最近的邻居展示了学习不变的两个简单解决方案。其次,我们构建了一组目标,鼓励模型能够以无监督的方式将医学图像分解为解剖特征的集合。最后,我们在具有不同标记设置的三个基准数据集上的广泛结果验证了我们提出的MONA的有效性,该数据在不同的标签设置下实现了新的最新设置。
translated by 谷歌翻译
互联网审查制度是社会重要性的现象,并吸引了来自多个学科的调查。几个研究小组,例如审查的星球,已经部署了大规模的互联网测量平台,以收集网络可及性数据。但是,现有的研究通常依赖于手动设计的规则(即使用审查指纹)从数据中检测基于网络的Internet审查。尽管这种基于规则的方法产生了很高的真实积极检测率,但它面临着几个挑战:它需要人类的专业知识,费力,并且无法检测到规则未捕获的任何审查制度。为了克服这些挑战,我们设计和评估了基于潜在特征表示学习和基于图像的分类模型的分类模型,以检测基于网络的Internet审查制度。为了从网络可及性数据中推断潜在特征表示,我们提出了一个序列到序列自动编码器,以捕获数据中数据元素的结构和顺序。为了估算从推断的潜在特征估算审查事件的概率,我们依靠密集连接的多层神经网络模型。我们基于图像的分类模型将网络可及数据记录编码为灰度图像,并将图像分类为审查或不使用密集的卷积神经网络。我们使用持续评估使用审查行星的数据集比较和评估这两种方法。两种分类模型都能够检测基于网络的Internet审查制度,因为我们能够确定已知指纹未检测到的审查实例。潜在功能表示可能编码数据中的更多细微差别,因为潜在特征学习方法发现了新的审查实例的数量和更多样化的集合。
translated by 谷歌翻译
贝叶斯优化(BO)方法试图找到目标功能的全球最佳功能,这些功能仅作为黑盒或昂贵的评估。这样的方法为目标函数构建了替代模型,从而量化了通过贝叶斯推论的替代物中的不确定性。客观评估是通过在每个步骤中最大化采集函数来依次确定的。但是,由于采集函数的非转换性,尤其是在批处理贝叶斯优化的情况下,该辅助优化问题可能是高度不平凡的,因此可以解决。在这项工作中,我们将批处理重新定义为在概率措施空间上的优化问题。我们基于多点预期改进来构建一个新的采集函数,该功能是概率度量空间的凸面。解决此“内部”优化问题的实用方案自然会作为该目标函数的梯度流。我们证明了这种新方法对不同基准函数的功效,并与最先进的批次BO方法进行了比较。
translated by 谷歌翻译
从图像中学习心脏运动中的时空对应关系对于理解心脏解剖结构的潜在动力学很重要。许多方法明确施加了平滑度约束,例如位移矢量字段(DVF)上的$ \ Mathcal {l} _2 $ NORM,而通常忽略转换中的生物力学可行性。其他几何约束要么正规化特定的感兴趣区域,例如在心肌上施加不可压缩性,要么引入其他步骤,例如在物理模拟的数据集上训练单独的基于网络的正规器。在这项工作中,我们提出了一个明确的生物力学知识,因为在所有心脏结构中对更通用的生物力学上可行的转化进行建模,而无需引入额外的训练复杂性,因此对预测的DVF进行了正则化。在2D MRI数据的背景下,我们验证了两个公开可用数据集的方法,并执行广泛的实验,以说明与其他竞争性正规化方案相比,我们提出的方法的有效性和鲁棒性。我们提出的方法可以通过视觉评估更好地保留生物力学特性,并使用定量评估指标显示分割性能的优势。该代码可在\ url {https://github.com/voldemort108x/bioinformed_reg}上公开获得。
translated by 谷歌翻译
气溶胶颗粒通过吸收和散射辐射并影响云特性在气候系统中起重要作用。它们也是气候建模的最大不确定性来源之一。由于计算限制,许多气候模型不包括足够详细的气溶胶。为了表示关键过程,必须考虑气雾微物理特性和过程。这是在使用M7 Microphysics的Echam-Ham全球气候气溶胶模型中完成的,但是高计算成本使得以更精细的分辨率或更长的时间运行非常昂贵。我们的目标是使用机器学习以足够的准确性模仿微物理学模型,并通过在推理时间快速降低计算成本。原始M7模型用于生成输入输出对的数据以训练其上的神经网络。我们能够学习变量的平均$ r^2 $得分为$ 77.1 \%$ $。我们进一步探讨了用物理知识为神经网络提供信息和限制的方法,以减少群众侵犯并实施质量积极性。与原始型号相比,在GPU上,我们达到了高达64倍的加速。
translated by 谷歌翻译
磁共振光谱成像(MRSI)是量化体内代谢物的必不可少的工具,但是低空间分辨率限制了其临床应用。基于深度学习的超分辨率方法为改善MRSI的空间分辨率提供了有希望的结果,但是与实验获得的高分辨率图像相比,超级分辨图像通常是模糊的。已经使用生成对抗网络进行了尝试,以提高图像视觉质量。在这项工作中,我们考虑了另一种类型的生成模型,即基于流的模型,与对抗网络相比,训练更稳定和可解释。具体而言,我们提出了一个基于流动的增强器网络,以提高超分辨率MRSI的视觉质量。与以前的基于流的模型不同,我们的增强器网络包含了来自其他图像模式(MRI)的解剖信息,并使用可学习的基础分布。此外,我们施加指南丢失和数据一致性丢失,以鼓励网络在保持高忠诚度的同时以高视觉质量生成图像。从25名高级神经胶质瘤患者获得的1H-MRSI数据集上进行的实验表明,我们的增强子网络的表现优于对抗网络和基线基线方法。我们的方法还允许视觉质量调整和不确定性估计。
translated by 谷歌翻译
在试图在为人类建立的世界中执行有用任务的类人形机器人时,我们解决了自主运动的问题。人形机器人计划和控制算法在崎rough地形上行走的算法变得越来越有能力。同时,市售的深度摄像机已经变得越来越准确,而GPU计算已成为AI研究中的主要工具。在本文中,我们提出了一个新建造的行为控制系统,用于实现快速,自主,两足步行,而无需暂停或审议。我们使用最近发表的快速平面区域感知算法,基于高度图的身体路径计划器,A*脚步计划器和基于动量的步行控制器来实现这一目标。我们将这些元素放在一起,形成一个由现代软件开发实践和仿真工具支持的行为控制系统。
translated by 谷歌翻译